云服务器

推荐列表 站点导航

当前位置:首页 > 服务器技术 > 云服务器 >

阿里云虚拟主机被搜索引擎爬虫访问耗费大量流量解决方法

来源:网络整理  作者:网友投稿  发布时间:2020-12-29 17:35
客户使用阿里云虚拟主机的时候,网站被搜索引擎爬虫访问耗费大量流量和带宽,该如何处理呢?且看下文...

Robots.txt 文件是网站的一个文件,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,以下方法无效, 请注意最后要带斜杠。

对于不遵守该协议的情况, 例6. 允许访问特定目录中的部分url 实现a目录下只有b.htm允许访问 。

根据里面的内容来决定对网站文件访问的范围,如下: 搜索引擎 User-Agent AltaVista Scooter baidu Baiduspider Infoseek Infoseek Hotbot Slurp AOL Search Slurp Excite ArchitextSpider Google Googlebot Goto Slurp Lycos Lycos MSN Slurp Netscape Googlebot NorthernLight Gulliver WebCrawler ArchitextSpider Iwon Slurp Fast Fast DirectHit Grabber Yahoo Web Pages Googlebot LooksmartWebPages Slurp 2. Robots.tx t样例代码: 例1. 禁止所有搜索引擎访问网站的任何部分 User-agent: Disallow: / 例2. 允许所有的搜索引擎访问网站的任何部分 User-agent: Disallow: 例3. 仅禁止Baiduspider访问您的网站 User-agent: Baiduspider Disallow: / 例4. 仅允许Baiduspider访问您的网站 User-agent: Baiduspider Disallow: 例5. 禁止spider访问特定目录 User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /data/ 注意事项: 三个目录要分别写,如何处理。

网站被搜索引擎爬虫访问耗费大量流量和带宽, 带斜杠与不带斜杠的区别。

该如何处理呢?且看下文 问题场景: 客户使用虚拟主机。

网站被搜索引擎爬虫访问耗费大量流量和带宽,它能够保护我们的一些文件不暴露在搜索引擎之下, 解决方法: 可以通过在站点根目录下创建 Robots.txt, 客户使用阿里云虚拟主机的时候, 注:Robot.txt协议不是强制协议,先了解一下目前搜索引擎和其对应的 User-Agent, 1. 首先,搜索引擎蜘蛛抓取网站首先就是抓取这个文件。

从而有效的控制蜘蛛的爬取路径,。

相关热词:

本站内容来源于网络,如有侵权请与我们联系,我们会及时删除,我们深感抱歉!
注:本站所有信息仅供用于网络技术学习参考,学习中请遵循相关法律法规!

本文地址: https://v30.fanwenzhu.com/server/yun/10751.shtml

最新文章
租用云服务器后的备案问 租用云服务器后的备案问

时间:2021-01-05

百度云服务器bcc有什么优 百度云服务器bcc有什么优

时间:2021-01-05

什么是云服务器cvm?怎么 什么是云服务器cvm?怎么

时间:2021-01-05

云服务器怎么保证信息安 云服务器怎么保证信息安

时间:2021-01-05

云服务器怎么预防被攻击 云服务器怎么预防被攻击

时间:2021-01-05

阿里云ECS实例设置用户r 阿里云ECS实例设置用户r

时间:2020-12-29

阿里云ECS服务器入门使用 阿里云ECS服务器入门使用

时间:2020-12-29

怎么配置云服务器 怎么配置云服务器

时间:2020-12-28

Copyright © www.juheyunku.com      关于 | 合作 | 声明 | 联系 | 更新 | 地图 | Tags

阿里云虚拟主机被搜索引擎爬虫访问耗费大量流量解决方法

2020-12-29 编辑:网友投稿

Robots.txt 文件是网站的一个文件,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,以下方法无效, 请注意最后要带斜杠。

对于不遵守该协议的情况, 例6. 允许访问特定目录中的部分url 实现a目录下只有b.htm允许访问 。

根据里面的内容来决定对网站文件访问的范围,如下: 搜索引擎 User-Agent AltaVista Scooter baidu Baiduspider Infoseek Infoseek Hotbot Slurp AOL Search Slurp Excite ArchitextSpider Google Googlebot Goto Slurp Lycos Lycos MSN Slurp Netscape Googlebot NorthernLight Gulliver WebCrawler ArchitextSpider Iwon Slurp Fast Fast DirectHit Grabber Yahoo Web Pages Googlebot LooksmartWebPages Slurp 2. Robots.tx t样例代码: 例1. 禁止所有搜索引擎访问网站的任何部分 User-agent: Disallow: / 例2. 允许所有的搜索引擎访问网站的任何部分 User-agent: Disallow: 例3. 仅禁止Baiduspider访问您的网站 User-agent: Baiduspider Disallow: / 例4. 仅允许Baiduspider访问您的网站 User-agent: Baiduspider Disallow: 例5. 禁止spider访问特定目录 User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /data/ 注意事项: 三个目录要分别写,如何处理。

网站被搜索引擎爬虫访问耗费大量流量和带宽, 带斜杠与不带斜杠的区别。

该如何处理呢?且看下文 问题场景: 客户使用虚拟主机。

网站被搜索引擎爬虫访问耗费大量流量和带宽,它能够保护我们的一些文件不暴露在搜索引擎之下, 解决方法: 可以通过在站点根目录下创建 Robots.txt, 客户使用阿里云虚拟主机的时候, 注:Robot.txt协议不是强制协议,先了解一下目前搜索引擎和其对应的 User-Agent, 1. 首先,搜索引擎蜘蛛抓取网站首先就是抓取这个文件。

从而有效的控制蜘蛛的爬取路径,。

本站内容来源于网络,如有侵权请与我们联系,我们会及时删除,我们深感抱歉!
注:本站所有信息仅供学习参考!
本文地址为 https://v30.fanwenzhu.com/server/yun/10751.shtml

相关文章

风云图片

推荐阅读

返回云服务器频道首页